iT邦幫忙

2023 iThome 鐵人賽

DAY 30
0
AI & Data

進入AI的世界系列 第 30

➤D-30 核心應用☞自然語言處理-6【完】(主要演算模式2)

  • 分享至 

  • xImage
  •  

NLP主要演算模式

Transformer

  1. 基本概念:
    基於ED Model,加上自我注意力機制(Self Attention, SATT)的一種深度學習模式。
    利用自我注意力機制(SATT),來取代相對複雜,序列性、速度慢、計算耗時的RNN架構,這是相當跨時代的典範轉移也是深度學習上的大發明。
  2. 自我注意力機制(SATT):
    利用「源端注意力機制」(Source Attention)、「目標端注意力機制」(Target Attention)及「源端目標端交叉注意力機制」(Cross Attention),快速正確掌握詞與詞之間應該「聚焦對齊」的各種關鍵訊息的一種注意力機制。
    ①源端注意力機制(Source Attention):在輸入端,計算自己內部詞與詞之間的Attention來捕捉「輸入內部訊息之間的依賴關係」,以及對句子中每個字都平行獨立的去測量,其與輸入句子中其他字關聯性大小,而賦予不同權重的一種注意力機制。
    ②目標端注意力機制(Targrt Attention):輸出的目標端,計算自己的Attentoin並捕捉輸出內部各個詞與詞的關係與重要性的一種注意力機制。
    ③源端目標端交叉注意力機制(Cross Attention):原來傳統Encoder跟Decoder訊息的ATT,捕抓的是輸入序列的每個詞,與輸出序列的每個詞之間的對應性與依賴關係、自我注意力機制,比原來傳統的機制多了兩個注意力,更有效率。
  3. Transformer應用:
    ①機器翻譯
    ②文本摘要
    ③QA系統
    ④語音辨識
    ⑤Chatbot
    ⑥情緒分析

語言模型

  1. 基本概念:
    透過對人類文字使用大量的學習之後,能合理「預測下一個詞句、能架構出順暢文句」的一個模型,例如:BERT、GPT-3等。
  2. BERT:Transformer雙向編碼器:
    ①BERT基本概念
    基於微調(Fine Tune)、雙向(Bidirection)、多層的(Multi Layer)Transformer的Encoder,利用「無監督式學習」的一個大型通用預訓練語言模式(Pretrained Language Model)。這是Google於2018年9月推出的一個目前最Powerful的預訓練語言模式。
    ②BERT主要模型架構與特色:
    ⓵主要架構:
    • BERT(Base):有12層,每層有12個Attention Head共有1.1億個參數。
    • BERT(Large):有24層,詞向量1024個維度,每層有16個Attention Head,共有3.4億個參數。

⓶訓練資料:
包括Wikipedia + Bookcorpus(11038本書)加上FB(Meta)共33億個詞。
⓷訓練方式:
* 詞層次(Word Level)克漏字填空(Masked Language Model, MLM):會在輸入的文本中隨機掩蓋(Mask)每個句子中15%的詞,然後訓練左右兩邊的詞句來預測中間被掩蓋的詞,例如「月有??陰晴圓缺」,如此的訓練可以得到中間詞前後左右雙向的依賴關係(Bidirection Relationship),並解決同詞異議的問題。
* 句子層次下一句預測,即NSP(Next Sentence Prediction):在Input的句子後下一個句子視為「正確」的正樣本(Positive Sample),然後NSP再隨機由文本抽取一個其他句子視為錯誤的負樣本(Nagetive Sample),兩個正負樣本來不斷大量的進行二分類訓練,直到BERT能正確預測下一句為止。

③BERT主要優勢:
⓵Transformer優勢:平行、聚焦,直接對應、速度快的Transformer Model及其所具備的自我注意力機制。
⓶詞層次深入的理解詞意:利用MLM以及自我注意力(SATT)。
⓷句子層次的深入瞭解句子與句子之間的關係:NSP Model。
⓸非監督式學習:成本低、獲取容易、可大量蒐集、不用標註、不用做預處理的一般通用語料,例如:FB等。
④BERT主要貢獻與應用:
⓵取代傳統複雜的NLP預處理工作(Pre-processing):「觸類旁通、融會貫通」,只需輸入原始文本,不須經過各種預處理。
⓶取代部分下游任務工作:bert為一個已經訓練好的預訓練模式,對於下游的任務,只要上面加上一個簡單的Decoder或一個簡單的分類器(Classifier),再加上少數的樣本就可以有效地執行各種任務。

  1. GPT-3(Generative Pre-trained Transformer 3):
    ①GPT-3基本架構:
    一個基於Transformer Decoder無監督式學習、單向、大型通用式語言模型,目標在於預測下一句最合理的詞句為任務,大型的GPT-3有1750億個參數,96層的Transformer每層有128個Attention Head詞向量的維度為12288,GPT-3有各種Size,從1.25億個參數到27億、67億、130億、1750億都有。
    ②GPT-3訓練數據:
    45TB(兆)的文本,來源:Common Crawl DataSet一共有4100億個詞句(占60%)、Web Text有190億個詞句(22%)、Bookl有550億、Wikipedia30億的詞(3%)。
    ③GPT-3主要預測方式:
    ⓵少量樣本(Few Shot):只用10~100個目標任務的心樣本就可以執行許多下游任務,而不需要改變原來語言模式內的所有參數權重,亦即不需要做微調工作。
    ⓶單一樣本(One Shot):只給一個下游任務的樣本Demo給GPT-3看,而GPT-3就要執行此任務,例如:要求GPT-3由文本中抽取出摘要,而只給他一個例子來監督學習。
    ⓷零樣本(Zero Shot):只是描述任務的特性,而不給任何的樣本而讓GPT-3自己去執行,例如:直接叫GPT-3執行翻譯英文到法文,不給例子,微調的效果>少量樣本>單一樣本>零樣本。
    ④GPT-3應用與績效表現:
    Ⅰ. 句子理解方面:由一個「句子」來預測「最後一個字」,測試其長距離的依賴關係與對句子結構的理解。
    Ⅱ. 文本理解方面:預測文本結尾,若人類得95分,GPT-3則可得到78~79分。
    Ⅲ. 句子面關係方面:瞭解文本句與句子的關係。
    Ⅳ. QA系統:文章中、書本及維基的文本內,直接抽取出正確的回答。
    Ⅴ. 機器翻譯方面:各國語言翻譯。
    Ⅵ. 常識與推理(Common Sence Reasoning)方面:在3~9年級科學考試或式簡單算術選擇題都有50%~70%正確率。
    Ⅶ. 閱讀瞭解(Reading Comprehension):文本摘要、問答系統、聊天機器人。
    Ⅷ. 數學方面:二位數加減完全沒問題,三位數加減正確率是80%~90%。
    Ⅸ. 語意瞭解方面:SAT正確比率60%~65%,美國大學生平均是57%。
    Ⅹ. 創造新聞本方面:寫出一篇文章,有52%的人猜不出是AI寫的。
    Ⅺ. 句子生成方面:沒見過的生字,簡單的解釋以後由他自己造句。
    ⑤GPT-3主要風險:
    ⓵誤用的強力語言工具:詐騙集團、假消息、垃圾郵件、論文造假等。
    ⓶垃圾進垃圾出:如果輸入的資料包括有歧視、不公平、霸凌、辱罵、汙穢的內容,則輸出的也會有這種偏差的內容。
    ⓷品質問題:大部分FB、Web、Blog、Twitter等社群媒體上的文本內容,品質本來就不高,故分析出來的文具內容也有內容品質的問題。
    ⓸準確穩定性問題:如果沒有經過微調,加入多目標樣本訓練,則其績效更是不穩定。

  2. 未來LM走勢:
    ①更可控制文本生成:不要Garbage In Garbage Out(GIGO)。
    ②綜合知識圖譜(Knowledge Graph , KG):瞭解文句中的正確邏輯關係。
    ③更好的道德風險分析:用道德規範指標來比較不同LM輸出品質、做倫理道德偏差內容比較分析、監督與改善LM未來生成內容品質。


參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-29 核心應用☞自然語言處理-5(主要演算模式1)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言